Model Selection

English speech transcription

# English speech transcription

Parakeet Ctc 1.1b

Parakeet CTC 1.1B is an automatic speech recognition model jointly developed by NVIDIA NeMo and Suno.ai, based on the FastConformer architecture with approximately 1.1 billion parameters, supporting English speech transcription.

Speech Recognition English

Parakeet Rnnt 1.1b

Parakeet RNNT 1.1B is an automatic speech recognition model jointly developed by NVIDIA NeMo and Suno.ai, based on the FastConformer Transducer architecture with approximately 1.1 billion parameters, supporting English speech transcription.

Speech Recognition English

Faster Whisper Base.en

This is a Whisper base.en model converted based on CTranslate2, used for English speech recognition tasks.

Speech Recognition English

Stt En Fastconformer Ctc Large

This is a large automatic speech recognition (ASR) model based on the FastConformer architecture, specifically designed for transcribing English speech into text.

Speech Recognition English

Whisper Tiny.en

ONNX weight version of OpenAI Whisper-tiny.en model, designed for Transformers.js, used for English speech transcription.

Speech Recognition

Stt En Conformer Transducer Xlarge

This is an Automatic Speech Recognition (ASR) model developed by NVIDIA, based on the Conformer-Transducer architecture, with approximately 600 million parameters, specifically designed for English speech transcription.

Speech Recognition English

Assignment1 Joane

A speech-to-text (S2T) model for automatic speech recognition (ASR)

Speech Recognition

Transformers English

Classroom-workshop

Assignment1 Jack

A speech-to-text (S2T) model for automatic speech recognition (ASR), based on a sequence-to-sequence transformer architecture

Speech Recognition

Transformers English

Classroom-workshop

Assignment1 Jane

s2t-small-librispeech-asr is a speech-to-text (S2T) model for automatic speech recognition (ASR), based on a sequence-to-sequence transformer architecture.

Speech Recognition

Transformers English

Classroom-workshop

Wav2vec2 Large 960h Lv60 Self With Wikipedia Lm

An automatic speech recognition (ASR) system based on Facebook's wav2vec2-large-960h-lv60-self model, improved with an enhanced Wikipedia language model

Speech Recognition

Wav2vec2 Large 960h Lv60 Self 4 Gram

Based on Facebook's Wav2Vec2-Large-960h-lv60-self model, enhanced with an English 4-gram language model to improve speech recognition accuracy

Speech Recognition English

patrickvonplaten

Wav2vec2 Base 960h 4 Gram

Based on Facebook's Wav2Vec2-Base-960h model, with an added English 4-gram language model to improve automatic speech recognition (ASR) accuracy.

Speech Recognition

Transformers English

patrickvonplaten

S2t Small Librispeech Asr

A speech-to-text (S2T) model for automatic speech recognition (ASR), based on a sequence-to-sequence transformer architecture

Speech Recognition

Transformers English

Wavlm Libri Clean 100h Base

An automatic speech recognition model fine-tuned on the LIBRISPEECH_ASR - CLEAN dataset based on microsoft/wavlm-base

Speech Recognition

patrickvonplaten

Wav2vec2 Tiny Random Robust

A lightweight automatic speech recognition (ASR) model, based on a randomly initialized version of the Wav2Vec2 architecture, designed for robustness testing.

Speech Recognition

Transformers English

patrickvonplaten

Wav2vec2 Large 960h Lv60 Self

The Wav2Vec2 large model developed by Facebook, pre-trained and fine-tuned on 960 hours of Libri-Light and Librispeech audio data, using self-training objectives, achieving SOTA results on the LibriSpeech test set.

Speech Recognition English

Wav2vec2 Base 960h

Wav2Vec2 is a self-supervised learning-based speech recognition model developed by Facebook, trained on the LibriSpeech dataset, supporting English speech-to-text tasks.

Speech Recognition

Transformers English

Featured Recommended AI Models

AIbase

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

© 2025AIbase